硬件驱动下的AI推理:商业化路径与市场前景
核心观点
推理市场的重要性:随着AI模型规模的扩大,推理需求激增,预计将是AI训练需求的3-10倍,成为初创企业的重要机会。 推理成本与盈利挑战:推理成本高昂是生成式AI商业化的主要障碍,企业需要大幅提升推理能力并降低成本,以满足市场需求。 云服务与硬件销售的关系:初创企业的推理云服务主要目的是推动硬件销售,帮助客户实现对数据和模型的自主掌控。 盈利模式依赖硬件规模化:推理市场的长期盈利潜力在于硬件的广泛部署,而非依赖云服务收入,大规模硬件销售将决定盈利空间。
关键对比
- 成本: 8B模型:每百万tokens $0.12;70B模型:$0.70;405B模型:$6。
-----
主要云计算企业及其超大规模合作伙伴在部署AI训练平台时已做出技术选择。这些企业往往同时扮演云计算和超大规模计算双重角色。它们普遍采用NVIDIA数据中心GPU,部分企业也会使用自研XPU加速器或AMD GPU。
AI训练的核心在于研发,无论是针对AI模型还是基于这些模型的产品。由于时效性至关重要,资金似乎不成问题,这些企业难以选择第三方方案。(这种现象在过去四十年的全球顶尖政府资助HPC中心中也普遍存在。)
云计算和超大规模计算领域的AI训练市场准入门槛高,这解释了为何众多AI芯片初创企业未能凭借其芯片和软件产品引起市场轰动,尽管NVIDIA GPU供不应求。然而,包括Cerebras Systems、SambaNova Systems和Groq在内的重要初创企业现在认为,随着行业重心转向AI推理,它们有机会建立硬件业务,无论是通过直接销售系统还是采用云交付模式进行租赁。
数据中心中AI推理的高成本实际上是企业级生成式AI(GenAI)推广的主要制约因素,不论是提升现有应用还是创造全新应用。尽管目前无法准确预测未来几年全球IT市场对推理能力的需求,但业界普遍认为,这一需求将是AI训练所需计算能力的数倍,可能是3倍、4倍,甚至10倍或更多。同时,业界普遍认为推理成本(即生成tokens的成本,而非构建能够生成tokens的模型的成本)必须大幅降低。这需要强大的硬件支持,而非可以在成熟半导体工艺下大规模生产、包装需求较低的50美元推理芯片。
在这些限制条件下,降低推理成本是一项巨大挑战。然而,这一变革对生成式AI的蓬勃发展至关重要。目前,模型训练需要8000个GPU,而实现200毫秒人眼瞬间反应速度的推理则需要8到16个GPU,这种比例是不可接受的。(早期的GPT-4变体正是如此。)现在,训练所需的GPU数量已增至24000到32000个,推理则需要16到32个GPU。业界正朝着单个系统需要50000、64000甚至100000个GPU的方向发展(有时跨越多个数据中心或地区),这意味着在200毫秒响应时间下,最大模型的推理需要32到96个GPU。
基于推理图像大小的经验证据表明,推理与训练的比例正在改善,但仍不足以显著降低AI推理成本。推理能力可能是训练能力的十倍,但要实现需求的弹性可扩展性并广泛采用,成本必须降低几个数量级。
针对一个价值接近40万美元、配备八GPU的节点,推理运算所需的资金投入将急剧攀升。若当前全球范围内已有数百万个数据中心GPU被用于生成式AI的训练,而未来需求或将飙升至数千万个,那么相应地,我们将面临数亿个GPU的推理需求缺口。值得注意的是,尽管AI推理的成本可能仅为训练成本的十分之一,但若其提供的推理能力能达到训练的十倍,从收入角度看,两者或可持平。然而,这恰恰揭示了AI推理在盈利能力上相较于训练存在显著不足,所有市场参与者均需依赖庞大的销售量来弥补这一差距。
与此同时,AI芯片初创企业正转向推理市场,希望将使用云租赁计算能力的客户转变为系统购买者。如果我们身处这些新兴公司的位置,也会采取同样的策略。
Groq
数据中心推理战争于去年秋季正式打响,Groq向NVIDIA的GPU发起挑战。此前,Groq联合创始人兼首席执行官Jonathan Ross解释,AI模型规模尚不足以对GPU造成负担。然而,随着GPT-3、GPT-4等大型语言模型的出现,情况发生了变化。如今,AI推理面临的问题与十年前AI训练的问题类似,经济性开始显得不再合理,而此时,15000家初创公司和超大规模计算企业正试图将其商业化。
为应对这一挑战,Groq采用了两片稍多一些的GroqChips模块,共计576个语言处理单元(LPUs,有时也如此称呼),用于Llama 2 70B的推理。这些LPU的特点是不使用高带宽内存(HBM),也不需要台积电的CoWoS封装技术。GroqChips采用成熟的14nm工艺制造,这意味着生产成本较低。
Groq声称,这个大型系统能够处理每秒315.06个tokens。Ross表示,同期一套典型的NVIDIA DGX H100系统每秒仅能推送10到30个tokens。(注意,我们不清楚Ross所提及的NVIDIA机器的量化水平和数据精度。)Groq宣称其系统在成本仅为十分之一的情况下,推理速度达到训练的十倍,性价比提高了100倍。(我们强烈怀疑这里指的是Groq及其他云服务商的推理服务API成本,而非基础系统成本。)
Cerebras Systems
两周前,Cerebras在其CS-2晶圆级平台上发布了自己的推理方案。该公司此前仅正式销售用于训练的机器,直到今年三月才与高通宣布了推理计算侧车的合作。Cerebras产品和战略高级副总裁Andy Hock介绍了推理服务的相关数据。
Cerebras以FP16精度运行其模型权重,并未降低到FP8、MX6、MX4或FP4精度,这种做法在提高吞吐量的同时会牺牲模型质量。
以下是Cerebras将一个四晶圆系统与Groq集群和多个在不同云平台上运行的单八路H100节点(使用Llama 3.1 8B模型)进行对比的结果:
LLM模型规模的扩大导致模型参数密度显著增加,从而需要处理更多的权重流动数据,进而限制了模型的吞吐量。
Cerebras的四晶片系统在大型语言模型推理任务中展现出了卓越的性能,其速度是云端大型语言模型API的20倍,相比云端最佳DGX H100配置也有约5倍的提升。然而,由于缺乏与多节点HGX或DGX系统的对比数据,这一性能比较可能存在一定偏颇。
Cerebras目前正在积极适配其推理服务,以支持Llama 3.1 405B、Mistral Large 2、OpenAI Whisper以及Cohere Command R等业界领先的大型语言模型。
以下为Cerebras推理服务的收费标准:
随着模型参数规模的扩大,对计算资源的需求呈指数级增长。模型的内存占用、计算量以及输入输出tokens的处理成本均显著增加,而单个用户请求的吞吐量却有所下降。Cerebras为这两个模型提供了免费的试用套餐,但设置了每分钟30次请求和每日100万tokens的限制。
Groq声称其大规模系统能达到每秒处理315.06个token的性能。相比之下,罗斯表示,一套典型的NVIDIA DGX H100系统每秒仅能处理10至30个token。(需注意,罗斯未明确指出所述NVIDIA设备的量化级别和数据精度。)Groq进一步宣称,其系统在成本仅为竞品十分之一的情况下,推理速度较训练阶段提升了十倍,从而实现了100倍的性价比提升。(我们有理由推测,这里所指的成本可能是Groq及其他云服务提供商的推理API定价,而非底层硬件系统的实际成本。)
SambaNova
SambaNova也已入局推理市场,并发布了其在SambaNova Cloud上对Llama 3.1模型的基准测试结果。该公司提供了免费、开发者和企业级等多种服务套餐,底层硬件为其一年前推出的SN40L可重构数据单元(RDU)设备。
SambaNova产品副总裁Anton McGonnell介绍了其配置了16个RDU的系统在Llama 3.1基准测试中的表现。测试结果显示,在Llama 3.1 8B模型上,SambaNova机器能够以全BF16精度处理每秒1100个tokens。值得注意的是,这一性能是在为每个用户分配全部16个RDU的情况下测得的,旨在最大化单用户查询速度。在Llama 3.1 70B模型上,McGonnell估计峰值性能约为每秒580个tokens,而Artificial Analysis的最终结果预计接近这一峰值。
对于参数量更大的Llama 3.1 405B模型,Artificial Analysis的测量结果显示,峰值性能为每秒132个tokens。这一性能显著优于提供Llama 3.1模型API访问的云端Hopper实例。
SambaNova Cloud已推出推理服务的免费套餐和企业套餐。开发者套餐预计将以较企业套餐更为优惠的价格提供,同时在处理tokens量和支持用户数方面将超越免费套餐。(目前免费套餐的具体限制尚未公布。)
8B参数模型:每百万tokens定价0.12美元。 70B参数模型:每百万tokens定价0.70美元。值得注意的是,虽然参数规模增加了8.75倍,但tokens处理成本仅上涨5.8倍。 405B参数模型:每百万tokens定价6美元。相较于70B模型,参数规模扩大了5.8倍,而tokens处理成本则增加了8.6倍。
这种定价策略反映了模型规模与计算成本之间的非线性关系,也体现了SambaNova在大规模语言模型商业化方面的定价策略。
AI推理的未来
云端大型语言模型API的确存在。如果Groq、Cerebras和SambaNova仅能通过这种方式从寻求更低成本(但不一定是更少硬件)进行AI推理的初创企业和成熟企业中获利,它们无疑会欣然接受这些收入。然而,我们认为这些服务更多是为了促进硬件销售。数据和模型主权不仅关乎国家政府,更涉及每一个组织。我们认为,那些将生成式AI投入生产的机构并不愿意将其数据和模型托管在超大规模计算或云计算公司那里。
这对所有销售AI计算引擎的公司来说是利好消息,包括NVIDIA、AMD,从长远来看,可能还有Intel。超大规模计算和云计算公司正在自主开发AI加速器,并且从GPU中获得了丰厚利润,预计也会在其AI加速器上采取类似策略。
用户建议:进行自主基准测试,无论是针对单用户还是批量用户,都要测试所有这些性能指标。然后从供应商处获取实际系统硬件定价,评估自行部署硬件是否能节省成本,以及节省幅度。即使前期可能更具挑战性,也要掌控自身命运。
参考资料:Prickett, Timothy. "The Battle Begins For AI Inference Compute In The Datacenter." The Next Platform, September 10, 2024. https://www.nextplatform.com/2024/09/10/the-battle-begins-for-ai-inference-compute-in-the-datacenter/.
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)